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摘要 :【 目的 ] 为 解决 已 有 方法 中 单词 特征 表示 不 具有 语义 信息 这 
用 进行 探讨 。【 方法 ] 考虑 词 嵌入 表示 级 别 、 词 汇 级 别 和 语法 级 别 三 种 类 型 特征 ， 利 用 朴素 贝 叶 斯 模型 、 决 策 树 


问题 ， 对 词 嵌入 表示 特征 在 关系 抽取 中 的 作 


模型 和 随机 森林 模型 进行 对 比 实 验 ， 并 选 出 代表 全 部 特征 的 有 效 特 征 子 集 。[ 结果 】 使 用 全 部 特征 时 , 决策 树 算 
法 的 准确 率 达 到 0.48, 关系 抽取 效果 最 佳 , Member-Collection( E», E, ) 类 型 关系 的 五 值 达 到 0.70, 特征 排序 结果 表 
明 依 存 关 系 有 助 于 关系 抽取 。[ 局 限 】 对 小 样本 量 和 情况 复杂 的 关系 类 型 识别 效果 有 待 提 高 ， 以 及 词 向 量 训练 及 
方法 的 相关 参数 需要 进一步 优化 。[ 结论 】 实 验证 明 选 取 的 三 种 类 型 特征 的 有 效 性 ,， 词 嵌入 表示 级 别 特征 在 实体 


关系 抽取 问题 中 可 以 发 挥 重 要 作用 。 
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随 着 网 络 技术 的 发 展 , 非 结 构 化 信息 的 数量 不 断 
增多 ,如 此 庞大 的 数字 资源 给 人 类 学 习 和 工作 带 来 困 
扰 。 为 了 更 好 地 利用 这 些 信息 , 研究 人 员 利 用 信息 抽 
取 技 术 , 将 非 结 构 化 信息 转化 成 结构 化 信息 。 

信息 抽取 技术 希望 计算 机 能 够 自动 识别 并 抽取 出 
文本 中 有 价值 的 信息 , 它 有 具体 分 为 命名 实体 识别 
(Named Entity Recognition) 、 关 系 抽 取 (Relation 
Extraction)、 事 件 抽 取 (Event Extraction), 、 时 间 信 息 抽 
取 (Temporal Information Extraction) 和 指 代 消解 
(Coreference Resolution) 等 研究 点 。 其 中 , 关系 抽取 是 
指 自动 识别 两 个 实体 之 间 属 于 哪 种 语义 关系 ,例如 


m} 


“John Smith is the chief scientist of the Hard.com 
Corporation.” P 3 [& “John Smith” 和 “Hard.com”* 之 间 存 


在 “Person-Affiliation” 的 语义 关系 。 实 体 间 关系 抽取 是 
信息 结构 化 的 重要 环节 , 是 知识 图 谱 构建 的 关键 部 分 ， 
也 是 问答 系统 .自然 语言 理解 应 用 中 至 关 重 要 的 一 步 。 

传统 的 基于 特征 工程 的 实体 关系 抽取 方法 中 使 用 
单词 、 实 体 类 型 、 依 存 关系 等 特征 , 单词 使 用 字典 索 
引 表 示 , 这 种 表示 方法 不 带 有 语义 信息 , 无 法 表达 两 
个 语义 相近 的 实体 之 间 的 联系 。 词 租 入 表示 可 以 将 以 
往 离 散 的 单词 语义 连续 化 , 如 果 两 个 单词 语义 越 接近 ， 
那么 它们 对 应 的 词 向 量 空 间距 离 就 越 大 , MARZ 
为 自然 语言 处 理 提供 非常 有 效 的 工具 。 为 了 解决 以 上 
问题 ,本文 融合 词 租 入 表示 特征 进行 实体 关系 抽取 。 


通讯 作者 : K2, ORCID: 0000-0003-1404-842X, E-mail: qinzhang.zq@foxmail.com。 
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目 “ 基 于 clique 子 团聚 类 的 文本 主题 识别 方法 研究 ”的 研究 成 果 之 一 。 


融合 词 伐 入 表示 特征 的 实体 关系 抽取 方法 考虑 词 
和 能 入 表示 级 别 特征 、 词 汇 级 别 特征 和 语法 级 别 特征 三 
类 特征 , 对 基于 特征 工程 的 实体 关系 抽取 方法 进行 改 
JE, 通过 特征 排序 和 有 效 特 征 子 集 进行 实体 关系 抽取 
效果 研究 。 


2 实体 关系 抽取 相关 研究 


实体 关系 定义 为 两 个 实体 之 间 的 某 种 联系 , 用 元 
H R 2 (el,e,) 表示 ， 其 中 e ，e, 是 文档 DD 中 具有 关系 
R 的 实体 , 关系 抽取 就 是 自动 找 出 该 特定 语义 关系 。 
通常 , 实体 关系 抽取 任务 比较 关注 人 、 组 织 、 位 置 等 
实体 之 间 的 关系 , 例如 人 和 组 织 之 间 的 “Person- 
Atffiliation” 从 属 关系 、 组 织 和 位 置 之 间 的 “Organization- 
Position” 关 系 。 此 外 , 还 包括 很 多 其 他 类 别 的 关系 , 例如 : 


(DWe poured the milk into the pumpkin mixture. 


DThe burst has been caused by water hammer pressure. 

This article gives details on 2004 in music in the United 
Kingdom. 

句子 也 中 的 实体 “milkk” 和 “pumpkin mixture" zz [] 
存在 语义 关系 “Entity-Destination”; 对 于 句子 包 和 句子 
©, "burst" fll pressure" ff TE "Cause-Effect^ E Y. $Z, 
"article" fil music" {F 1E"Message-Topic" T8 X. Jc f& s 

关系 抽取 的 研究 方法 集中 于 将 判断 两 个 实体 之 间 
是 否 存在 某 种 语义 关系 看 作 一 个 分 类 问题 , 在 此 基础 
E, 实体 关系 分 类 研究 分 为 核 函数 方法 、 远 距离 监督 
方法 和 特征 提取 方法 。 

(1) 核 函 数 可 以 计算 结构 之 间 的 相似 性 ,实现 关 
系 分 类 目的 , 效果 比较 突出 的 是 字符 串 核 函数 中 解析 
树 核 函数 外、 依存 树 核 函数 站 、 最 短 依存 路 径 核 函数 外 
和 多 核 融合 中 等 。 其 中 ，Bunescu 等 中 使 用 词 的 稀疏 子 
序列 、 词 性 标签 、 通 用 词性 标签 、 实 体 类 型 和 WordNet 
同义词 等 模式 , 将 三 种 子 核 函 数 联合 构成 字符 串 序列 
E PRX, 通过 将 它 和 支持 向 量 机 (Support Vector 
Machine，SVMD) 模 型 结合 ,找到 能 将 正 样本 与 负 样 本 
分 开 的 决策 超 平面 。 为 了 解决 传统 径 向 基 核 函数 训练 
和 矩阵 元 素 趋 近 于 0 时 不 利于 分 类 的 问题 ， 郭 剑 毅 等 吕 
对 径 向 基 核 函数 训练 矩阵 进行 改进 ,并 将 改进 的 径 向 
基 核 函数 融合 多 项 式 核 函 数 及 卷 积 树 核 函 数 ， 通 过 枚 
举 的 方式 获得 复合 核 函数 的 最 优 参数 ,利用 多 核 融 合 
方法 与 SVM 模型 结合 进行 中 文 领 域 实体 关系 抽取 。 

Q) 远 距离 监督 方法 利用 自 举 自动 产生 标注 数据 ， 


然后 训练 各 种 分 类 器 模型 完成 关系 抽取 工作 由。 Mintz 等 
使 用 Freebase 知识 库 , 将 其 中 的 关系 实例 所 包含 的 
实体 同 维基 百科 文本 中 的 实体 对 齐 ， 从 而 产生 训练 数 
据 ， 然 后 使 用 逻辑 回归 模型 进行 关系 抽取 。 Banko 等 四 
提出 TextRunner 系统 , 包括 学 习 机 、 抽 取 器 和 评估 三 
个 模块 。 具 体 过 程 是 : 首先 , 给 定 一 个 小 样本 集 , 提取 
两 个 实体 间 的 单词 数量 、 停 用 词 数量 和 实体 是 否 是 专 
有 名 词 等 特征 后 , 用 这 组 自动 标记 的 特征 向 量 训练 朴 
素 贝 叶 斯 分 类 器 得 到 学 习 机 。 然 后 , 抽取 器 对 整个 语 
料 库 进 行 单个 传递 ,以 提取 所 有 可 能 的 关系 元 组 ,将 
每 个 元 组 发 送 到 分 类 器 中 ,并 标记 可 信赖 关系 元 组 。 

最 后 ,根据 文本 宛 余 的 概率 模型 ， 为 每 个 保留 的 元 组 
分 配 概率 。 远 距离 监督 方法 适用 于 大 规模 多 领域 的 网 
络 文本 信息 抽取 , 使 用 该 方法 产生 了 一 系列 原型 系统 ， 
例如 WOE 系统 外 和 ReVerb 系统 00 等 。 

(3) 特征 提取 方法 利用 文本 分 析 处 理 得 到 的 特征 
数据 训练 不 同 的 分 类 器 ,特征 主要 包括 实体 、 词 性 标 
签 和 话 法 分 析 结 果 等 。Kambhatlal 研 究 实 体 、 实 体 类 
型 、 依 存 树 和 解析 树 等 特征 , [E FHESCKAR S RETI 
关系 抽取 。Zhou 等 1 考虑 两 个 实体 的 首 单词 和 
WordNet 中 语义 类 , 训练 SVMLight 分 类 器 , 研究 如 何 
将 各 种 特征 组 合 起 来 。 高 俊平 等 睛 利用 词 在 句子 中 的 
位 置 、 词 性 标签 、 实 体 类 别 、 依 存 关系 和 语义 角色 标 
签 等 特征 , 采用 条 件 随机 场 (Conditional Random 
Fields，CRF) 模 型 对 句子 成 分 进行 序列 标注 ,识别 中 文 
维基 百科 数据 中 概念 间 的 演化 关系 。 甘 丽 新 等 ' 在 传 
统 特征 基础 上 进行 扩展 ,利用 依存 句法 分 析 和 词性 标 
注 结果 得 到 依存 句法 关系 组 合 特征 和 最 近 句 法 依赖 动 
词 特征 , 使 用 SVM 模型 作为 分 类 器 进行 实验 。 

以 往 关系 抽取 研究 中 的 词汇 特征 往往 使 用 字典 索 
引 或 独 热 (One Hob 模 型 进行 表示 , 在 独 热 模型 中 单词 
对 应 的 向 量 中 只 有 某 一 维 非 零 ， 因此, 会 面临 数据 稀 
玖 的 问题 。 此 外 , 无 论 是 字典 索引 表示 方法 还 是 独 热 
模型 表示 方法 , 单词 表示 均 不 带 有 语义 信息 , 无 法 识 
别 语义 相近 的 词汇 。2013 4E, Mikolov 等 55 提出 
Word2Vec 词 租 和 人 表示 学 习 模 型 ,由 在 将 研究 对 象 的 语 
义 信息 表示 为 稠密 低 维 实 值 向 量 , 并 且 该 向 量 能 够 表 
达 两 个 语义 相近 的 单词 之 间 的 联系 。 词 舱 入 表示 模型 
可 以 解决 数据 稀 玖 和 维 数 灾难 问题 , 在 自然 语言 处 理 
中 有 广泛 应 用 。 
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本 文 融合 词 骨 入 表示 特征 进行 实体 间 关 系 抽取 ， 
从 数据 集中 提取 词 谍 和 人 表示 级 别 、 词 汇 级 别 和 语法 级 
别 三 类 特征 , 将 关系 抽取 看 作 分 类 问题 , 利用 这 些 特 
征 训练 朴素 贝 叶 斯 模型 、 决 策 树 模型 和 随机 森林 模型 ， 
并 使 用 特征 排序 算法 分 析 各 类 特征 的 性 能 ,最 后 选择 
有 效 特征 子 集 , 完成 关系 抽取 任务 。 


3 ”融合 词 琴 入 表示 特征 的 实体 关系 抽取 方法 


基于 特征 工程 的 实体 关系 抽取 方法 将 实体 关系 识 
别 看 作 一 个 分 类 问题 ,即将 判断 两 个 实体 之 间 是 否 存 
在 某 种 关系 看 作 一 个 分 类 问题 。 由 此 转化 为 数学 问题 : 
文档 万 = We00jeo 中 e 和 e@ 是 两 
个 实体 , 映射 函数 了 为 : 

+1 @ 和 e, 之 间 有 R 关 系 
CC- t e fee Z IB] JUR A 

其 中 , 7(5) 是 从 文档 D 中 提取 的 特征 , 通过 映射 函 
数 了 判断 句子 中 的 实体 是 否 存在 关系 。 这 样 ,实体 关 
系 抽取 任务 等 价 于 实体 关系 检测 任务 。 
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成 稠密 低 维 实 值 向 量 , 单独 考虑 向 量 的 某 一 维 都 没有 
明确 的 含义 , 但 是 综合 考虑 这 个 向 量 则 能 够 表达 这 个 
单词 的 语义 信息 ， 如 果 两 个 单词 的 语义 信息 相近 ， 则 
它们 的 词 般 入 表示 向 量 的 相似 度 就 越 高 ,空间 距离 就 
越 小 。 词 舱 入 表示 研究 主要 利用 神经 网 络 模 型 进行 实 
现 ， 比 较 突出 的 工作 有 神经 网 络 语言 模型 (Neural 
Network Language Model, NNLM)D9 、 循 环 神经 网 络 语 
A P H (Recurrent Neural Network based Language 
Model, RNNLM)"", 2013 年 , Mikolov 等 提出 Word2Vecl?! 
ii A XémEOJEOM,. 它 又 细 分 为 两 种 : 一 种 是 
CBOW 模型 , 已 知 单词 w fI EP ww, oW 
wa， 预测 单词 wi; 男 一 种 是 Skip-gram 模型 ， 在 已 知 
单词 ww 的 前 提 下 ,预测 其 上 下 文 w_ a, Wis Wag Waz o 
Word2Vec 模型 将 神经 网 络 中 非常 耗 时 的 非 线性 隐藏 
层 去 除 , 输入 是 文档 集 ， 输 出 为 文档 集中 的 单词 的 词 
BARIH E, Mikolov 等 的 研究 表明 该 模型 的 词 咎 入 
表示 效果 较 好 ， 因 此 本 文选 择 Word2Vec 模型 进行 词 
和 能 入 表示 训练 。 
3.2 特 征 

与 以 往 研 究 不 同 , 融合 词 岩 人 表示 特征 的 实体 关 
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系 抽 取 方 法 创新 性 地 考虑 词 租 人 表示 级 别 特 征 ,， 这 是 
由 于 基于 神经 网 络 的 词 租 入 表示 包含 单词 的 语义 信 
A, 可 以 反映 词汇 之 间 的 语义 相关 性 ， 本 文 探究 性 地 
考查 这 种 特征 的 关系 抽取 效果 。 同 时 ,考虑 词汇 级 别 
寺 征 和 语法 级 别 特征 ,研究 这 三 种 特征 对 关系 抽取 任 
务 的 效果 。 

(1) 词 般 入 表示 级 别 特征 

按照 实体 在 句子 中 的 相对 位 置 , 将 左 、 右 两 个 实 
体 分 别 记 为 El 和 Es。 关系 抽取 工作 首先 考虑 两 个 实体 
本 身 作 为 特征 ,两 个 实体 分 别 用 词 谍 入 表示 方法 向 量 
化 表示 为 WEM WE,。 然 后 ,因为 分 布 式 词 向 量 空间 
存在 平移 不 变性 0 BI king 和 queen 的 向 量 差 与 man 
和 woman 的 向 量 差 近似 相等 , 所 以 , 本 文中 的 词 嵌 入 
表示 级 别 特征 考虑 实体 E, 和 实体 E, 的 空间 向 量 差 
WE = WE -WE, 。 此 外 , 具有 相同 关系 的 实体 对 间 的 
语义 相似 度 可 能 相同 或 相近 ,基于 这 一 想法 ， 词 嵌入 
表示 级 别 特征 还 包括 实体 对 的 欧 几 里 德 距离 和 余弦 相 
似 性 两 个 特征 , 假设 实体 Ei n AERA ERRAN 
WE, 2(a,,a5,,a,) ,实体 E; RJ n Zi] AIRE EAS 
H WE, = {b,b b} o HBA, 实体 El 和 实体 E; Bd 
艇 入 表示 向 量 空间 的 欧 几 里 德 距 离 如 公式 (1) 所 示 。 


DXE, Ej) = || Y. (a; -by (1) 
i-l 


两 个 实体 RU E» Bri CA ez H c 28 IHE BS 
相似 性 如 公式 (2) 所 示 。 


(WE, -WE,) 


E, E) = >+ 
S( 1? 2) Ia, [x [a | 


Q) 


(2) 词汇 级 别 特征 

为 了 更 清楚 地 描述 词汇 级 别 特征 ,将 其 细 分 为 词 
汇 特征 、 类 型 特征 和 数量 特征 。 词 汇 特征 主要 考虑 单 
词 ， 根 据 单词 在 句子 中 出 现 位 置 的 不 同 , 将 句 中 所 有 
单词 分 为 三 类 : 两 个 实体 之 间 的 词 , 实体 E 之 前 的 词 
和 实体 ,之 后 的 词 。 因 为 实体 的 首 单 词 通常 更 重要 ， 
所 以 将 它们 的 首 单词 和 其 他 单词 进行 区 分 , 考虑 两 个 
实体 的 首 单词 作为 两 个 特征 ,分 别 为 HE, MHE, o F 
时 ,两 个 实体 之 间 的 单词 又 分 为 三 部 分 : 首 个 单词 ， 
最 后 一 个 单词 和 之 间 的 其 他 单词 。 而 针对 实体 之 前 
的 词 和 实体 E 之 后 的 词 ， 则 分 别 取 实体 E, 前 的 第 一 
个 和 第 二 个 单词 , 以 及 实体 后 的 第 一 个 和 第 二 个 单 


词 。 类 型 特征 指 实体 类 型 , 可 以 是 ORGANIZATION、 
LOCATION , DATE, NUMBER , MONEY , PERSON, 
TIME, ORDINAL, DURATION, MISC 和 OTHER 
这 11 类 。 此 外 , 数量 特征 主要 统计 两 个 实体 之 间 的 单 
词 数 量 和 实体 数量 。 按 照 上 述 思 路 , 词汇 级 别 特征 名 
称 及 其 详细 描述 如 表 1 所 示 。 
表 1 词汇 级 别 特征 及 其 描述 

特征 类 别 ”特征 特征 描述 

HE, ”实体 El 的 首 单词 

HE, ”实体 成 的 首 单词 


BNULL 当 实 体 间 没有 单词 时 ,， 取 值 为 1， 否则 为 -1 
当 实 体 间 仅 有 一 个 单词 时 ， 取 值 为 该 单词 ， 


BO SMA- 
aeo 当 实体 间 至 少 有 两 个 单词 时 ， 实 体 间 的 第 一 
词汇 个 单词 

a 当 实体 间 至 少 有 两 个 单词 时 ， 实体 间 的 最 后 
一 个 单词 

已 严实 体 忆 之 前 的 第 一 个 单词 

ES 实体 局 之 前 的 第 二 个 单词 

EF 实体 已 之 后 的 第 一 个 单词 

ES 实体 已 之 后 的 第 二 个 单词 


ET 实体 E, 的 类 型 
ET ”实体 6; 的 类 型 
BE 两 个 实体 之 间 的 实体 数量 
BW 两 个 实体 之 间 的 单词 数量 


(3) 语法 级 别 特征 

语法 级 别 特征 主要 指 句子 的 依存 解析 树 中 包含 的 
信息 和 词性 标签 信息 , 句子 的 依存 解析 树 从 其 句法 解 
析 树 中 获得 , 包括 实体 的 依存 词 和 实体 与 其 依存 词 之 
间 的 依存 关系 等 信息 。 具 体 而 言 ,实体 E, 和 实体 E» 
的 依存 词 分 别 记 为 DE 和 DE, 实体 E, 和 依存 词 DE, 
的 依存 关系 记 为 Ri, 实体 E, 和 依存 词 DE, 的 依存 关系 
记 为 Rs 词性 特征 考虑 实体 El 和 实体 的 词性 POS 、 
POS, 实体 万 的 依存 词 DE 的 词性 POSD1, 以 及 实体 
,的 依存 词 DE. 的 词性 POSD;. 
3.3 ”融合 词 酚 入 表示 特征 的 实体 关系 抽取 方法 

融合 词 嵌 和 人 表示 特征 的 实体 关系 抽取 方法 基于 上 
述 词 租 和 人 表示 级 别 、 词 汇 级 别 和 语法 级 别 三 类 特征 ， 
共 27 个 特征 , 将 实体 关系 抽取 工作 看 作 分 类 问题 进行 
处 理 。 在 词 租 入 表示 特征 抽取 过 程 中 , 针对 Skip-gram 
和 CBOW 两 种 对 数 线性 模型 由 于 Skip-gram 模型 在 
识别 单词 间 的 语义 关系 方面 效果 更 好 ,因此 使 用 
Skip-gram 模型 训练 词 般 入 表示 向 量 。 同时, 在 分 类 结 


果 方 面 , 本 文 区 分 两 个 实体 的 顺序 ， 即 区 分 实体 关系 
的 方向 , 例如 “Component-Whole (E, E;)" 5j*Component- 
Whole(, BE” 是 两 种 不 同 的 关系 , 前 者 表示 实体 5 是 
组 件 , 后 者 表示 实体 是 组 件 。 对 于 训练 数据 和 测试 
数据 , 需要 计算 并 提取 上 述 27 个 特征 , 并 利用 训练 数 
据 的 这 些 特 征 训练 分 类 器 ,然后 用 测试 数据 检验 分 类 
器 的 关系 抽取 效果 。 


4 实验 过 程 与 结果 分 析 


4.1 数据 集 

实验 的 主要 目的 是 探究 本 文 提出 的 融合 词 租 入 表 
示 特 征 的 实体 关系 抽取 方法 的 有 效 性 ,验证 其 是 否 能 
够 准确 识别 实体 关系 。 实 验 在 SemEval-2010 第 8 ME 
务 中 提供 的 数据 集 上 进行 , 该 数据 集 共有 10 717 个 标 
注 样本 ,其 中 训练 样本 8 000 个 , 测试 样本 2 717 个 。 
这 10 717 个 标注 样本 共 包 含 9 种 有 向 关系 以 及 1 种 无 
向 关系 ,有 向 关系 包括 “Component-Whole”“Member- 
Collection” 、“Entity-Origin” 、“Entity-Destination”、 
“Product-Producer” , “Message-Topic” , Content-Container" , 
"I[nstrument-A gency” FI *Cause-Effect", J m X 3 48 
“Other 关系 。 各 种 关系 类 型 及 其 所 占 比 例如 表 2 所 示 。 


表 2 SemEval-2010 task8 数据 集中 关系 类 型 及 其 比例 
样本 数量 i5 HE 


n es 
iid pi 训练 集 测试 集 dm (%) 
1 Component-Whole(£», E1) 472 150 622 5.80 
2  Component-Whole(£|, E2) 470 162 632 5.90 
3 Member-Collection(£,, E1) 612 201 813 7.59 
4 Member-Collection(E E2) 78 32 110 1.03 
5  Entity-Origin(E, E2) 568 211 quq9 -7.27 
6  Entity-Origin(E,, E) 148 47 195 1.82 
7  Entity-Destination(£», Ei) 1 1 2 0.02 
8 Entity-Destination(£Z;, E2) 844 291 1135 10.59 
9  Product-Producer(£;, E;) 323 108 43] 4.02 
10 Product-Producer(£», E) 396 123 519 4.84 
11 Message-Topic(£;, Ei) 144 51 195 1.82 
12 Message-Topic(Z;, E2) 490 210 700 6.53 


13  Content-Container(£», Ei) 166 39 205 1.91 
14 Content-Container(£;, E2) 374 153 527 4.92 
15 Instrument-Agency(£;, E2) 97 22 119 1.11 
16 Instrument-Agency(£», Ei) 407 134 541 5.05 


17 Cause-Effect(E', E;) 344 134 478 4.46 
18 Cause-Effect(£», E1) 659 194 853 7.96 
19 Other 1 407 454 1861 17.36 
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4.0 ”数据 预 处 理 

在 进行 分 类 实验 之 前 , 需要 对 数据 集 进 行 预 处 
理 。 数据 预 处 理工 作 包 括 去 停 用 词 、 词 舱 入 表示 处 理 、 
依存 解析 树 分 析 、 词 性 标注 和 关系 类 型 标签 数值 化 等 ， 
其 中 词 能 入 表示 处 理 使 用 Google 的 Word2Vec TP, 
训练 Skip-gram 词 舱 和 人 表示 模型 , 经 过 多 次 实验 , qx 
人 表示 向 量 维度 大 小 为 100 时 关系 抽取 效果 最 佳 。 因 
此 , 向 量 维度 设置 为 100, 训练 窗口 的 大 小 设置 为 5。 
依存 解析 树 和 词性 标注 等 语法 分 析 工 作 使 用 斯 坦 福 大 
学 提供 的 StanfordNLPP9 进 行 ， 最 后 将 关系 类 型 标签 
以 1-19 进行 数值 化 。 
43 ”结合 全 部 特征 的 关系 抽取 实验 

使 用 词 炭 人 表示 级 别 、 词 汇 级 别 和 语法 级 别 27 
个 特征 , 共 324 维特 征 , 利用 这 三 类 特征 训练 朴素 贝 
叶 斯 模型 、 决 策 树 模型 和 随机 森林 模型 三 种 分 类 器 。 
基于 全 部 特征 的 实体 关系 抽取 实验 使 用 Python 调用 
scikit-learn 实现 , 分 类 器 使 用 默认 参数 和 训练 集 数据 
进行 训练 , 并 利用 测试 集 数据 测试 它们 在 关系 抽取 任 
务 上 的 性 能 ,分 别 计算 每 个 分 类 器 的 查 准 率 P、 查 全 
AX RAIF IE, 结果 如 表 3 所 示 。 不 使 用 分 类 器 的 情况 
F, 考虑 实体 关系 方向 ,一 个 样本 被 正确 分 类 的 概率 
是 1/19， 而 三 种 分 类 器 的 查 准 率 均 大 于 这 一 概率 ,说 
明 融 合 词 嵌 入 表示 特征 的 实体 关系 抽取 方法 的 有 效 
性 。 从 表 3 可 以 看 出 , 决策 树 分 类 器 的 关系 抽取 效果 
最 好 ,其 次 是 随机 森林 模型 朴素 贝 叶 斯 模型 的 关系 
抽取 效果 最 差 。 


表 3 分 类 器 的 分 类 效果 


分 类 器 P R Fi 
朴素 贝 叶 斯 模型 0.21 0.21 0.15 
决策 树 模型 0.48 0.47 0.47 
随机 森林 模型 0.45 0.45 0.44 


表 4 是 使 用 决策 树 模 型 得 到 的 19 类 关系 的 实验 查 
WERP, EER RA FW, 其 中 的 关系 类 型 标号 与 表 
2 中 的 序号 相对 应 , 可 以 看 出 决策 树 模型 对 “Member- 
Collection(E», 1)” 类 型 关系 的 Fi 值 达到 0.70, AER, 
查 全 率 也 分 别 达 到 0.67, 0.73, 因此 本 文中 抽取 的 27 
个 特征 对 “Member-Collection(Z,，E1)”* 这 种 关系 的 效果 
最 好 。 此 外 ,决策 树 模型 对 “Entity-Destination (Ei, Ez)" 
类 型 关系 的 查 准 率 、 查 全 率 和 Fi 值 分 别 为 0.67, 0.65 
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和 0.66, MiX} «Entity-Destination(E», B1)* 类 型 关系 的 查 
准 率 、 查 全 率 和 F 值 为 0.00 的 原因 是 数据 集中 训练 
样本 和 测试 样本 太 少 , 不 能 够 全 面 捕捉 该 类 关系 的 特 
征 。 对 于 “Other” 类 型 关系 而 言 ， 虽然 数据 集中 的 样本 
数量 达到 17.36%, 但 是 由 于 该 类 型 关系 情况 复杂 ， 
所 以 其 的 查 准 率 、 查 全 率 和 F 值 不 是 很 高 。 


表 4 各 类 关系 的 分 类 效果 


关系 类 型 序号 P R Fi 
1 0.35 0.30 0.32 
2 0.51 0.46 0.49 
3 0.67 0.73 0.70 
4 0.43 0.31 0.36 
5 0.69 0.49 0.57 
6 0.38 0.30 0.33 
7 0.00 0.00 0.00 
8 0.67 0.65 0.66 
9 0.42 0.42 0.42 
10 0.30 0.30 0.30 
11 0.20 0.20 0.20 
12 0.39 0.40 0.39 
13 0.61 0.64 0.62 
14 0.61 0.56 0.58 
15 0.07 0.14 0.09 
16 0.28 0.30 0.29 
i7 0.62 0.61 0.61 
18 0.61 0.68 0.65 
19 0.28 0.31 0.29 


4.4 特征 排序 

AXE Weka F ÉY ReliefFAttributeEval? 4:13: JE 
行 特征 排序 ,该 算法 对 特征 进行 排序 的 思路 是 : 对 于 
某 个 特征 a, 给 出 一 个 样本 4, 与 样本 4 同类 的 样本 中 
距离 最 近 的 为 样本 B, 与 样本 A 异类 的 样本 中 距离 最 
近 的 为 样本 C, 评估 特征 a 的 值 时 需要 考虑 样本 B 的 
特征 a 值 和 样本 C 的 特征 a 值 。27 种 特征 排序 结果 及 
其 所 属 类 型 如 表 5 所 示 。 可 以 看 出 , 前 10 个 特征 中 
有 3 个 是 语法 级 别 特征 , 6 个 是 词汇 级 别 特征 , 1 个 是 
词 代 入 级 别 特征 ,词汇 级 别 特征 信息 量 更 大 。 其 中 
前 3 个 分 别 是 实体 E; 的 依存 词 DE,、 实 体 Ex 的 首 单 
词 HE, 和 实体 E; 的 首 单词 HE, 这 与 实体 间 关 系 与 
两 个 实体 本 身 关 系 密 切 相 吻合 , 并且 依存 关系 在 实 
体 关 系 抽取 中 发 挥 重要 作用 。 
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表 5 特征 排序 结果 


排序 特征 分 数 特征 类 型 
1 DE; 0.0178 语法 特征 
2 HE 0.0152 词汇 特征 
3 HE; 0.0104 词汇 特征 
4 BNULL 0.0081 词汇 特征 
5 R, 0.0078 语法 特征 
6 BW 0.0056 词汇 特征 
7 DE 0.0053 语法 特征 
8 BL 0.0051 词汇 特征 
9 BF 0.0049 词汇 特征 
10 WE, 0.0045 词 嵌入 特征 
11 POS; 0.0040 语法 特征 
12 Ri 0.0037 语法 特征 
13 POS, 0.0031 语法 特征 
14 POSD， 0.0031 语法 特征 
15 D(Ei, E2) 0.0030 词 嵌 入 特征 
16 WE» 0.0027 词 嵌入 特征 
17 POSD, 0.0023 语法 特征 
18 ES 0.0022 词汇 特征 
19 WE» 0.0015 da] CARERE 
20 EF 0.0012 词汇 特征 
21 EF 0.0010 词汇 特征 
22 ET 0.0009 词汇 特征 
23 ET 0.0003 词汇 特征 
24 BE 0.0002 词汇 特征 
25 BO —0.0008 词汇 特征 
26 SCE E2) —0.0009 词 租 入 特征 
27 ES —0.0032 词汇 特征 


45 结合 有 效 特 征 子 集 的 关系 抽取 实验 

特征 选择 旨 在 选择 能 够 代表 全 部 特征 的 有 效 特 
征 子 集 , 本文 使 用 Weka 中 的 CfsSubsetEval 3:3 
行 特征 选择 。 该 算法 假设 有 用 的 特征 子 集 应 该 包含 那 
些 能 够 预测 分 类 但 彼此 间 不 相关 的 特征 ， 其 构建 特征 
子 集 的 过 程 是 : 对 于 与 类 别 标签 相关 度 最 高 的 特征 ， 
只 要 子 集中 不 包含 与 它 相 关 度 高 的 特征 ， 则 将 它 添加 
到 特征 子 集 中 ,迭代 处 理 每 一 个 特征 。 其 优先 选择 与 
类 别 标签 相关 度 高 而 特征 之 间 相 关 度 低 的 特征 , 通过 
考虑 各 个 特征 的 分 类 能 力 以 及 特征 之 间 的 宛 余 度 , 评 
估 特 征 子 集 的 价值 。 经 过 分 析 得 到 DE,E) ET 
BE, POS}, POSD;, Rs, S(E,, E>) , BW, BNULL , WE, 、 
WE; , WE; 作为 全 部 特征 的 特征 子 集 。 为 了 调查 该 特 
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征 子 集 对 关系 分 类 任务 的 作用 效果 , 使 用 上 述 12 个 特 
征 作 为 全 部 特征 的 特征 子 集 , 训练 朴素 贝 叶 斯 模型 、 
决策 树 模 型 和 随机 森林 模型 三 种 分 类 器 , 实验 的 查 准 
XP, BAR RA F EWK 6 所 示 。 

表 6 使 用 特征 子 集 的 关系 分 类 效果 


分 类 器 Jp R Fi 
朴素 贝 叶 斯 模型 0.16 0.16 0.13 
决策 树 模型 0.44 0.43 0.43 
随机 森林 模型 0.38 0.38 0.37 


AR 6 可 以 看 出 , 对 于 决策 树 模 型 , 仅仅 使 用 上 
述 特 征 子 集 分 类 器 的 五 值 也 可 以 达到 0.43, 与 使 用 全 
部 特征 的 五 值 相 差 不 大 , 这 说 明 以 上 12 种 特征 可 以 
作为 全 部 特征 的 有 效 特征 子 集 ， 代表 277 个 特征 完成 实 
体 关 系 抽取 工作 。 男 一 方面 ,上 述 特 征 子 集中 有 5 种 
是 词 舱 入 表示 级 别 特征 , 4 种 词汇 级 别 特征 ，3 种 语法 
级 别 特征 ,这 说 明 本 文 提出 的 词 坐 入 表示 级 别 特征 在 
关系 抽取 任务 中 发 挥 了 重要 作用 ， 同 时 说 明 本 文 所 选 
取 的 三 类 特征 均 有 效 。 


5 结 语 


本 文 融合 词 租 入 表示 特征 研究 实体 关系 抽取 问 
题 ,首先 将 实体 用 词 租 入 方式 表示 成 带 有 语义 信息 的 
低 维 实 值 向 量 , 然后 从 数据 集中 抽取 词 租 入 表示 级 
别 、 词 汇 级 别 和 语法 级 别 三 类 特征 , 最 后 将 实体 关系 
抽取 转化 为 分 类 问题 处 理 , 对 比 朴素 贝 叶 斯 模型 、 决 
策 树 模型 和 随机 森林 模型 三 种 分 类 器 的 关系 抽取 效 
果 。 实 验 结果 表明 综合 考虑 所 有 特征 时 决策 树 算 法 的 
效果 最 佳 , 特征 排序 结果 发 现 词 汇 级 别 特征 信息 量 大 ， 
依存 关系 有 助 于 关系 抽取 , 并 且 利 用 特征 选择 算法 选 
择 出 全 部 特征 的 最 优 特征 子 集 , 说 明 本 文选 取 的 三 类 
特征 的 有 效 性 , 且 词 徐 入 表示 级 别 特征 在 实体 关系 抽 
取 问 题 中 可 以 发 挥 重 要 作用 。 

本 文 的 不 足 之 处 在 于 对 小 样本 量 的 关系 类 型 和 语 
法 规则 复杂 的 关系 类 型 存在 误 判 情况 。 今 后 的 研究 将 
考虑 增加 上 述 两 种 类 型 的 样本 数量 ,同时 优化 词 向 量 
训练 的 相关 参数 ， 从 而 提高 整体 识别 效果 。 
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Abstract: [Objective] This study explores the word embedding representation features for entity relationship extraction, 
aiming to add semantic message to the existing methods. [Methods] First, we used the feature characteristics at word 
embedding representation, the vocabulary and the grammar levels to extract relations using Naive Bayesian, Decision 
Tree and Random Forest models. Then, we obtained the optimal subset of the full features. [Results] The accuracy of 
the Decision Tree algorithm was 0.48 with full features, which was the best. The F; score of Member-Collection (E2, E1) 
was 0.70, and the dependency could help us extract the relations. [Limitations] We need to improve the relation 
extraction results with small sample size and complex situation. The word vector training method could be further 
optimized. [Conclusions] This study proves the effectiveness of three types of features. And the word embedding 
representation level feature plays an important role to extract relations. 
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